Text copied to clipboard!
Название
Text copied to clipboard!Инженер по надежности сайта
Описание
Text copied to clipboard!
Мы ищем Инженера по надежности сайта, который будет играть ключевую роль в обеспечении высокой доступности, производительности и устойчивости наших цифровых продуктов. В этой роли вы будете работать в тесном сотрудничестве с командами разработки, эксплуатации и безопасности для проектирования, построения и поддержки масштабируемых и отказоустойчивых систем. Вы будете использовать лучшие практики DevOps, автоматизацию и мониторинг для обеспечения бесперебойной работы сервисов и быстрого реагирования на инциденты.
Инженер по надежности сайта (SRE) отвечает за внедрение процессов, которые позволяют системам быть самовосстанавливающимися, масштабируемыми и предсказуемыми. Вы будете анализировать инциденты, выявлять корневые причины и разрабатывать решения, предотвращающие повторение проблем. Также вы будете участвовать в разработке инструментов и платформ, которые помогут другим командам быстрее и безопаснее разрабатывать и внедрять программное обеспечение.
Мы ценим инициативность, аналитическое мышление и стремление к постоянному улучшению. Если вы увлечены автоматизацией, мониторингом и построением надёжных систем — мы будем рады видеть вас в нашей команде.
Обязанности
Text copied to clipboard!- Разработка и поддержка инструментов мониторинга и алертинга
- Автоматизация процессов развертывания и управления инфраструктурой
- Анализ и устранение инцидентов, выявление корневых причин
- Оптимизация производительности и устойчивости систем
- Сотрудничество с командами разработки для улучшения архитектуры приложений
- Участие в планировании и реализации стратегий отказоустойчивости
- Разработка и поддержка документации по эксплуатации систем
- Оценка рисков и внедрение мер по обеспечению безопасности
- Участие в дежурствах по реагированию на инциденты
- Построение и поддержка CI/CD пайплайнов
Требования
Text copied to clipboard!- Опыт работы в роли SRE, DevOps или системного администратора от 2 лет
- Знание Linux/Unix систем и принципов их администрирования
- Опыт работы с облачными платформами (AWS, GCP, Azure)
- Навыки программирования на Python, Go или Bash
- Опыт работы с системами мониторинга (Prometheus, Grafana, ELK)
- Знание принципов CI/CD и опыт работы с Jenkins, GitLab CI или аналогами
- Понимание сетевых протоколов и принципов безопасности
- Умение анализировать логи и производить отладку систем
- Опыт работы с контейнерами и оркестраторами (Docker, Kubernetes)
- Хорошие коммуникативные навыки и умение работать в команде
Возможные вопросы на интервью
Text copied to clipboard!- Какой у вас опыт работы с системами мониторинга и алертинга?
- Какие инструменты вы используете для автоматизации инфраструктуры?
- Расскажите о случае, когда вы устраняли критический инцидент.
- Как вы обеспечиваете отказоустойчивость систем?
- Какой у вас опыт работы с CI/CD пайплайнами?
- Какие языки программирования вы используете в своей работе?
- Как вы подходите к анализу производительности системы?
- Как вы взаимодействуете с командами разработки?
- Как вы обеспечиваете безопасность инфраструктуры?
- Какие метрики вы считаете ключевыми для оценки надёжности?